Mistral AI liberó Mixtral 8x22B el 10 de abril de 2024 con el estilo que ya les caracteriza: un magnet link en Twitter sin blog post previo ni conferencias. La comunidad descargó los pesos en horas. Al día siguiente ya había benchmarks. Es la generación siguiente de su arquitectura MoE (Mixture of Experts), con 141B parámetros totales pero solo 39B activos por forward pass. Esto cambia la economía de servir modelos abiertos.
Qué es Mixtral 8x22B
La arquitectura Sparse Mixture of Experts:
- 8 “expertos” de 22B parámetros cada uno.
- Router que elige 2 expertos por token.
- Total: 141B parámetros en disco.
- Activos por forward pass: ~39B (2 expertos + componentes compartidos).
El resultado: capacidad ~141B con coste inferencial ~39B. Mejor relación calidad/coste que un modelo denso equivalente.
Licencia y distribución
Apache 2.0. Sin restricciones de uso comercial. Los pesos están en:
- Hugging Face (base).
- Hugging Face (instruct).
- Magnet links originales siguen funcionando.
Comparado con Llama 3 70B (licencia más restrictiva) o Claude 3 (cerrado), Mixtral 8x22B es la opción más permisiva a gran escala.
Benchmarks clave
Números publicados por Mistral y benchmarks comunitarios:
| Benchmark | Mixtral 8x22B | Llama 3 70B | GPT-4 | GPT-3.5 |
|---|---|---|---|---|
| MMLU | 77.8 | 79.5 | 86.4 | 70.0 |
| HellaSwag | 88.9 | 88.0 | 95.3 | 85.5 |
| GSM8K | 78.6 | 93.0 | 92.0 | 57.1 |
| HumanEval | 45.1 | 81.7 | 88.4 | 48.1 |
| Multilingüe (FR, ES, IT, DE) | Excelente | Bueno | Excelente | Medio |
Puntos clave:
- Calidad general cercana a Llama 3 70B, con arquitectura más eficiente inferencialmente.
- Multilingüe superior a Llama 3 70B — especialmente español, francés, italiano, alemán.
- Queda por detrás en matemáticas vs Llama 3 70B.
- Coding competitivo pero no top.
Para casos multilingües EU, Mixtral 8x22B es probablemente la mejor opción abierta.
Hardware requerido
Esto es el factor limitante:
| Precision | Memoria VRAM |
|---|---|
| FP16 | ~280 GB |
| INT8 | ~140 GB |
| INT4 (GGUF Q4_K_M) | ~80 GB |
| INT3 | ~60 GB |
Implicaciones prácticas:
- No cabe en una GPU consumer: 4090 (24GB) no llega ni cuantizado.
- Una A100 80GB o H100 80GB puede servir cuantizada Q4.
- 2x A100 40GB distribuido con tensor parallelism funciona.
- Apple Silicon M3 Max 128GB: cabe Q4 y funciona a ~5-10 tokens/s.
Para producción seria, casi siempre necesitas GPU datacenter.
Comparación con Mixtral 8x7B
El hermano menor (46.7B total, 12.9B activos):
| Aspecto | 8x7B | 8x22B |
|---|---|---|
| Parámetros totales | 46.7B | 141B |
| Activos/token | 12.9B | 39B |
| VRAM Q4 | ~25GB | ~80GB |
| Calidad general | ~GPT-3.5 | ~GPT-4 menor |
| Multilingüe | Muy bueno | Excelente |
| Tokens/s (A100 Q4) | ~60 | ~25 |
Para muchos casos, 8x7B es más pragmático: más rápido, más barato, calidad suficiente. El 8x22B tiene sentido cuando calidad importa más que throughput.
Serving en producción
Stack típico:
# vLLM con tensor parallel
python -m vllm.entrypoints.openai.api_server \
--model mistralai/Mixtral-8x22B-Instruct-v0.1 \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.9 \
--max-model-len 32768
Para Q4 con llama.cpp:
./server -m mixtral-8x22b-instruct-Q4_K_M.gguf \
-c 16384 -ngl 99 --host 0.0.0.0 --port 8080
vLLM es mejor throughput en GPU. llama.cpp es más portable y maneja offload CPU-GPU mixto.
Fine-tuning
LoRA en Mixtral 8x22B es factible:
- QLoRA: puede hacerse en 4x A100 80GB.
- Solo adaptar expertos específicos (MoE-aware fine-tuning) es activo research area.
- DPO para alignment después de domain fine-tune.
Para la mayoría de casos empresariales, prompt engineering + RAG con Mixtral instruct sin fine-tune cubre. Fine-tune solo cuando claramente prompting no llegue.
Context length
- Base: 64k tokens.
- Práctico: ~32k sin degradación severa.
- “Needle in haystack” performance decente hasta ~32k, degrada más allá.
Para RAG moderado o contexto long, suficiente. Para análisis de libros completos, Gemini 1.5 sigue liderando.
Casos de uso reales
Dónde Mixtral 8x22B brilla:
- Multilingüe empresarial: documentos en ES/FR/IT/DE/EN.
- Agentes de código medianos: no top-tier pero capaz.
- RAG con contexto largo.
- Summarization y análisis complejos.
- Self-hosting con compliance estricto.
Donde otros modelos ganan:
- Matemáticas: Llama 3 70B o Claude 3 Opus.
- Coding top-tier: Claude 3 Opus, DeepSeek Coder.
- Ultra-long context: Gemini 1.5.
Coste de servir
Calculado:
- 1 × A100 80GB on-prem: ~$15k/año amortizado.
- AWS p4d.24xlarge (8× A100 40GB): $32/hora = ~$23k/mes.
- Together.ai hosted: ~$2/1M tokens input + output.
Self-hosting compensa si procesas >100M tokens/mes sostenidamente. Debajo, hosted es más eficiente.
Alternativas en el espacio abierto
A fecha de abril 2024:
- Llama 3 70B: mejor en razonamiento matemático, licencia más restrictiva.
- Qwen 1.5 72B: fuerte multilingüe, licencia comercial bajo umbrales.
- DeepSeek 67B: excelente en código.
- Command R+ (Cohere): 104B denso, fuerte en RAG.
- Yi 34B: menor tamaño, competitivo en muchos benchmarks.
La elección depende de caso concreto. No hay “el mejor” universal.
Conclusión
Mixtral 8x22B confirma que Mistral AI lidera la frontera abierta en Europa. Su arquitectura MoE equilibra calidad y eficiencia inferencial de forma atractiva. Para equipos que pueden permitirse el hardware, es actualmente la mejor opción abierta para casos multilingües serios. Para quienes no, Mixtral 8x7B sigue siendo válido como opción más ligera. Y para producción seria sin GPU propio, servicios hosted como Together.ai, Anyscale, o Mistral La Plateforme ofrecen acceso pay-per-token. El ecosistema abierto continúa cerrando la brecha con frontier models cerrados.
Síguenos en jacar.es para más sobre LLMs abiertos, arquitecturas MoE y despliegue de modelos.